An oft-cited open problem of federated learning is the existence of data heterogeneity at the clients. One pathway to understanding the drastic accuracy drop in federated learning is by scrutinizing the behavior of the clients' deep models on data with different levels of "difficulty", which has been left unaddressed. In this paper, we investigate a different and rarely studied dimension of FL: ordered learning. Specifically, we aim to investigate how ordered learning principles can contribute to alleviating the heterogeneity effects in FL. We present theoretical analysis and conduct extensive empirical studies on the efficacy of orderings spanning three kinds of learning: curriculum, anti-curriculum, and random curriculum. We find that curriculum learning largely alleviates non-IIDness. Interestingly, the more disparate the data distributions across clients the more they benefit from ordered learning. We provide analysis explaining this phenomenon, specifically indicating how curriculum training appears to make the objective landscape progressively less convex, suggesting fast converging iterations at the beginning of the training procedure. We derive quantitative results of convergence for both convex and nonconvex objectives by modeling the curriculum training on federated devices as local SGD with locally biased stochastic gradients. Also, inspired by ordered learning, we propose a novel client selection technique that benefits from the real-world disparity in the clients. Our proposed approach to client selection has a synergic effect when applied together with ordered learning in FL.
translated by 谷歌翻译
Pre-trained language models have been successful in natural language generation (NLG) tasks. While various decoding methods have been employed, they often produce suboptimal results. We first present an empirical analysis of three NLG tasks: summarization, machine translation, and constrained text generation. We found that selecting the best output from the results of multiple decoding methods can significantly improve performance. To further improve reranking for NLG tasks, we proposed a novel method, \textsc{PairReranker}, which uses a single encoder and a pairwise loss function to jointly encode a source input and a pair of candidates and compare them. Experiments on three NLG tasks demonstrated the effectiveness and flexibility of \textsc{PairReranker}, showing strong results, compared with previous baselines. In addition, our \textsc{PairReranker} can generalize to significantly improve GPT-3 (text-davinci-003) results (e.g., 24.55\% on CommonGen and 11.35\% on WMT18 zh-en), even though our rerankers are not trained with any GPT-3 candidates.
translated by 谷歌翻译
聚集的联合学习(FL)已显示通过将客户分组为群集,从而产生有希望的结果。这在单独的客户群在其本地数据的分布方面有显着差异的情况下特别有效。现有的集群FL算法实质上是在试图将客户群体组合在一起,以便同一集群中的客户可以利用彼此的数据来更好地执行联合学习。但是,先前的群集FL算法试图在培训期间间接学习这些分布相似性,这可能会很耗时,因为可能需要许多回合的联合学习,直到群集的形成稳定为止。在本文中,我们提出了一种新的联合学习方法,该方法直接旨在通过分析客户数据子空间之间的主要角度来有效地识别客户之间的分布相似性。每个客户端都以单一的方式在其本地数据上应用截断的奇异值分解(SVD)步骤,以得出一小部分主向量,该量提供了一个签名,可简洁地捕获基础分布的主要特征。提供了一组主要的主向量,以便服务器可以直接识别客户端之间的分布相似性以形成簇。这是通过比较这些主要向量跨越的客户数据子空间之间主要角度的相似性来实现的。该方法提供了一个简单而有效的集群FL框架,该框架解决了广泛的数据异质性问题,而不是标签偏斜的更简单的非iids形式。我们的聚类FL方法还可以为非凸目标目标提供融合保证。我们的代码可在https://github.com/mmorafah/pacfl上找到。
translated by 谷歌翻译
语言模型(LMS)被证明具有对物理世界的常识知识,这对于在日常情况下完成任务至关重要。但是,LMS是否有能力为具体任务生成扎根的可执行计划,这仍然是一个悬而未决的问题。这是非常具有挑战性的,因为LMS没有“眼睛”或“手”来感知现实的环境。在这项工作中,我们展示了有关这个重要研究问题的第一个研究。我们首先提出了一个名为G-Planet的新型问题公式,它将其作为输入一个高级目标和在特定环境中的对象表。预期输出是一个计划,该计划包括逐步指令供代理执行。为了实现此问题的研究,我们建立了一个评估协议,并设计了一个专门的指标来评估计划的质量。在我们的广泛实验中,我们表明,为编码环境添加扁平表并使用迭代解码策略都可以提高LMS的基础计划能力。我们对结果的分析也导致有趣的非平凡发现。
translated by 谷歌翻译
在存在参与者的非IID数据分布的情况下,经典联合学习方法会产生明显的绩效降解。当每个本地数据集的分布与全局数据集有很大不同时,每个客户端的本地目标将与全局Optima不一致,从而导致本地更新中的漂移。这种现象极大地影响了客户的表现。这是为了让客户参加联合学习的主要动力是获得更好的个性化模型。为了解决上述问题,我们提出了一种新的算法弗利斯(Flis),该算法通过利用客户模型的推理相似性,将客户人口与可共同训练数据分布的群集分组。该框架捕获了设置,其中不同的用户组具有自己的目标(学习任务),但通过在同一集群(相同的学习任务)中汇总其数据以执行更有效和个性化的联合学习。我们提出了实验结果,以证明FLIS比CIFAR-100/10,SVHN和FMNIST数据集的最先进基准的好处。我们的代码可在https://github.com/mmorafah/flis上找到。
translated by 谷歌翻译
随着摩尔的定律饱和和丹纳德的缩放率撞到了墙壁,传统的冯·诺伊曼系统无法为CNN等计算密集型算法提供GFLOPS/WATT。非常规计算方法的最新趋势使我们希望为此类算法设计高能节能的计算系统。神经形态计算是一种有希望的方法,其脑启发的电路,新兴技术的使用和低功率性质。研究人员使用各种新型技术,例如回忆录,硅光子学,鳍片和碳纳米管来演示神经形态计算机。但是,从神经形态的逻辑设计开始并进行建筑模拟的灵活CAD工具尚未得到证明,以支持这种有希望的范式的兴起。在这个项目中,我们旨在构建Neucasl,这是一个基于OpenSource Python的完整系统CAD框架,用于神经形态逻辑设计,电路模拟以及系统性能和可靠性估计。据我们所知,这是同类产品中的第一个。
translated by 谷歌翻译
通过一系列联邦举措和命令,美国政府一直在努力确保美国在AI中的领导。这些广泛的战略文件影响了美国空军美国部(DAF)等组织。DAF-MIT AI加速器是DAF和MIT之间的一项计划,以弥合AI研究人员与DAF任务要求之间的差距。DAF-MIT AI加速器支持的几个项目正在开发公共挑战问题,这些问题解决了许多联邦AI研究的重点。这些挑战是通过公开可用的大型AI-Ready数据集,激励开源解决方案,并为可以激发进一步研究的双重使用技术创建需求信号,来针对优先事项。在本文中,我们描述了正在开发的这些公共挑战以及它们的应用如何促进科学进步。
translated by 谷歌翻译
在当今的数据密集型时代,深度学习非常普遍。特别是,卷积神经网络(CNN)在各种领域被广泛采用,以获得卓越的准确性。但是,计算传统CPU和GPU的深入CNN带来了几种性能和能量陷阱。最近已经证明了基于ASIC,FPGA和电阻内存设备的几种新型方法,并有令人鼓舞的结果。他们中的大多数仅针对深度学习的推理(测试)阶段。尝试设计能够培训和推理的全面深度学习加速器的尝试非常有限。这是由于训练阶段的高度计算和记忆密集型性质。在本文中,我们提出了一种新型的模拟光子CNN加速器Litecon。 Litecon使用基于硅微波炉的卷积,基于备忘录的内存和密集波长 - 划分的稳定和超快深度学习。我们使用商业CAD框架(IPKISS)评估LiteCon,该框架(IPKISS)在包括Lenet和VGG-NET在内的深度学习基准模型上评估。与最先进的情况相比,LiteCon分别将CNN的吞吐量,能源效率和计算效率提高了32倍,37倍和5倍,并具有微不足道的精度降解。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
随着时间的流逝,不断扩大知识并利用其快速推广到新任务的能力是人类语言智能的关键特征。然而,现有对新任务进行快速概括的模型(例如,很少的学习方法)主要是在固定数据集中的单个镜头中训练,无法动态扩展其知识;虽然不断学习算法并非专门设计用于快速概括。我们提出了一种新的学习设置,对几杆学习者(CLIF)的持续学习,以应对统一设置的两个学习设置的挑战。 CLIF假设模型从依次到达的一系列不同的NLP任务中学习,从而积累了知识,以改善对新任务的概括,同时还保留了较早所学的任务的性能。我们研究了在持续学习设置中如何影响概括能力,评估许多持续学习算法,并提出一种新型的正则适配器生成方法。我们发现,灾难性的遗忘影响着概括能力的程度远低于所见任务的表现。虽然持续学习算法仍然可以为概括能力带来可观的好处。
translated by 谷歌翻译